GAN(Generative Adversarial Network,生成對抗網路) 是由 Ian Goodfellow 於 2014 年提出的生成式人工智慧技術。它的目標是讓機器學會「創造」新的資料,這些資料在外觀或特徵上與真實資料非常接近,例如逼真的圖片、音樂、語音甚至影片。
架構與原理
GAN 由兩個主要部分組成:
-
生成器(Generator)
接收隨機噪聲作為輸入,生成看似真實的資料(如圖片、音訊、影像)。
-
判別器(Discriminator)
接收來自真實資料集與生成器的輸出,判斷其來源是真實還是偽造。
訓練過程中,生成器不斷嘗試「欺騙」判別器,而判別器則努力識破生成器的偽造資料。這種零和博弈的過程會持續進行,直到生成器能產出幾乎無法與真實樣本區分的內容。
主要應用
-
影像生成與編輯:根據文字描述或原始影像進行創作,例如將照片轉換為藝術風格、生成虛擬角色或動物形象。
-
資料增強:在機器學習中生成合成資料,如製造欺詐交易樣本以提升檢測模型的精準度。
-
缺失資訊補全:根據已知數據推測缺失部分,例如利用地形圖推測地下結構,用於地熱探勘或碳捕集。
-
2D 轉 3D:由平面影像生成立體模型,應用於醫療成像、遊戲建模與虛擬實境。
GAN 的變體
-
Vanilla GAN:最原始的架構,為各種變體奠定基礎。
-
條件式 GAN(cGAN):在生成過程中引入額外條件(如類別標籤),以生成更具目的性的資料。
-
深度卷積 GAN(DCGAN):利用卷積神經網路(CNN)提升影像生成品質與訓練穩定性。
-
超解析度 GAN(SRGAN、LAPGAN 等):專注於將低解析度影像轉換為高解析度版本。
優勢與挑戰
GAN 能生成高度擬真的多媒體內容,不需明確建模資料分佈,特別適合處理影像與高維度資料。然而,其訓練過程容易出現不穩定性與模式崩塌(Mode Collapse)等問題,且需要大量的資料與運算資源。
總結
GAN 的出現標誌著人工智慧從「理解世界」邁向「創造世界」的重要一步。它不僅改變了影像與多媒體創作方式,也為醫療、娛樂、教育及科學研究帶來新契機。然而,隨著技術的普及,如何在創新與倫理間取得平衡,將是未來發展的重要課題。